第8章固有表現抽出

ner.jsonを読み込み、シャッフルしてからtrain/val/testに分割（6:2:2）

create_dataset

データセットをデータローダに入力できる形に整形。

ner.jsonの要素のオブジェクト1つ1つについてtokenizer.encode_plus_taggedを呼び出す

BIO（リスト8-21）

encode_plus_tagged

データセット作成に使う

tokenizer.tokenizeを呼び出す

処理

固有表現の前後でtextを分割

encode_plus_untagged

性能評価に使う

以下の2つを呼び出している

tokenizer.word_tokenizer.tokenize

tokenizer.subword_tokenizer.tokenize